Search CORE

18 research outputs found

CONCEPTION ET MANIPULATION DE BASES DE DONNEES DIMENSIONNELLES À CONTRAINTES

Author: Faiza Ghozzi
Publication venue: HAL CCSD
Publication date: 18/11/2004
Field of study

This thesis defines a constraint-based model dedicated to multidimensional databases. The defined model represents data through a constellation of facts (subjects of analyse) associated to dimensions (axis of analyse), which are possibly shared. Each dimension is organised according to several hierarchies (views of analyse) integrating several levels of data granularity. In order to insure data consistency, 5 semantic constraints (exclusion, inclusion, partition, simultaneity, totality) are introduced, which can be intra-dimension or inter-dimensions. The intra-dimension constraints allow the expression of constraints between hierarchies within a same dimension whereas the inter-dimensions constraints focus on hierarchies of distinct dimensions. The repercussions of these constraints on multidimensional manipulations are studied and OLAP operator extensions are provided.L'accroissement du volume de données dans les systèmes d'information est de nos jours une réalité à laquelle chaque entreprise doit faire face. Notamment, elle doit permettre à ses responsables de déceler les informations pertinentes afin de prendre les bonnes décisions dans les plus brefs délais. Les systèmes décisionnels répondent à ces besoins en proposant des modèles et des techniques de manipulation des données. Dans le cadre de ces systèmes, mes travaux de thèse consistent à étudier la modélisation des données décisionnelles et à proposer un langage de manipulation adapté. Dans un premier temps, nous proposons un modèle dimensionnel organisant les données en une constellation de faits (sujets d'analyse) associés à des dimensions (axes d'analyse) pouvant être partagées. Notre modèle assure une plus grande cohérence des données par sa propriété de multi instanciations qui permet de spécifier des conditions d'appartenance des instances des dimensions aux hiérarchies. De plus, nous avons défini des contraintes exprimant des relations sémantiques entre les hiérarchies intra et inter dimensions (Inclusion, Exclusion, Totalité, Partition, Simultanéité). Au niveau de la manipulation des données, nous avons redéfini les opérateurs dimensionnels afin de permettre à l'utilisateur de mieux définir ses besoins en précisant l'ensemble des instances à analyser. Cette extension a permis d'éviter les incohérences lors de la manipulation des données dimensionnelles. Nous avons étudié également l'impact de ces contraintes sur l'optimisation des manipulations basée sur la technique de matérialisation des vues. La prise en compte des contraintes sémantiques a permis de supprimer des vues incohérentes et de réduire le nombre de vues candidates à la matérialisation. Dans un second temps, nous proposons un processus de conception d'un schéma dimensionnel comportant une démarche descendante, basée sur les besoins des décideurs, et une démarche ascendante basée sur les données sources. Une phase de confrontation, permet d'intégrer les résultats des deux démarches pour obtenir un schéma dimensionnel en constellation intégrant à la fois les besoins des décideurs et les données sources. Afin de valider nos propositions, nous avons développé un outil d'aide à la conception de schémas dimensionnels contraints intitulé GMAG (Générateur de MAGasin de données dimensionnelles)

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Contraintes pour modèle et langage multidimensionnels

Author: Ghozzi Faiza
Ravat Franck
Teste Olivier
Zurfluh Gilles
Publication venue: HAL CCSD
Publication date: 20/10/2003
Field of study

National audienceThis paper defines a constraint-based model dedicated to multidimensional databases. The model we define represents data through a constellation of facts (subjects of analyse) associated to dimensions (axis of analyse), which are possibly shared. Each dimension is organised according to several hierarchies (views of analyse) integrating several levels of data granularity. In order to insure data consistency, we introduce 5 semantic constraints (exclusion, inclusion, partition, simultaneity, totality) which can be intra-dimension or inter-dimensions; the intra-dimension constraints allow the expression of constraints between hierarchies within a same dimension whereas the inter-dimensions constraints focus on hierarchies of distinct dimensions. We also study repercussions of these constraints on multidimensional manipulations and we provide extensions of the multidimensional operators

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

BigDimETL with NoSQL Database

Author: Gargouri Faiez
Ghozzi Faiza
Mallek Hana
Teste Olivier
Publication venue: 'Elsevier BV'
Publication date: 01/01/2018
Field of study

In the last decade, we have witnessed an explosion of data volume available on the Web. This is due to the rapid technological advances with the availability of smart devices and social networks such as Twitter, Facebook, Instagram, etc. Hence, the concept of Big Data was created to face this constant increase. In this context, many domains should take in consideration this growth of data, especially, the Business Intelligence (BI) domain. Where, it is full of important knowledge that is crucial for effective decision making. However, new problems and challenges have appeared for the Decision Support System that must be addressed. Accordingly, the purpose of this paper is to adapt Extract-Transform-Load (ETL) processes with Big Data technologies, in order to support decision-making and knowledge discovery. In this paper, we propose a new approach called Big Dimensional ETL (BigDimETL) dealing with ETL development process and taking into account the Multidimensional structure. In addition, in order to accelerate data handling we used the MapReduce paradigm and Hbase as a distributed storage mechanism that provides data warehousing capabilities. Experimental results show that our ETL operation adaptation can perform well especially with Join operation

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

BigDimETL: ETL for multidimensional Big Data

Author: Gargouri Faiez
Ghozzi Faiza
Mallek Hana
Teste Olivier
Publication venue: HAL CCSD
Publication date: 14/12/2016
Field of study

International audienceWith the broad range of data available on the World Wide Web and the increasing use of social media such as Facebook, Twitter, YouTube, etc. a “Big Data” notion has emerged. This latter has become an important aspect in nowadays business since it is full of important knowledge that is crucial for effective decision making. However, this kind of data brings with it new problems and challenges for the Decision Support System (DSS) that must be addressed. In this paper, we propose a new approach called BigDimETL (Big Dimensional ETL) that deals with ETL (Extract-Transform-Load) development process. Our approach focuses on integrating Big Data taking into account the MultiDimensional Structure (MDS) through a MapReduce paradigm

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Méthode à base de patterns pour la détection d'anomalies

Author: Ben Kraiem Inès
Ghozzi Faiza
Péninou André
Teste Olivier
Publication venue: HAL CCSD
Publication date: 01/01/2019
Field of study

National audienceLa détection d’anomalies dans les applications réelles de distribution de ﬂuide est une tâche difﬁcile, en particulier lorsque l’on cherche à détecter simultanément différents types d’anomalies. La résolution de ce problème est importante dans plusieurs domaines par exemple, dans les applications de gestion et de supervision de bâtiments. Dans cet article, nous présentons l’algorithme CoRP "Composition of Remarkable Points", une approche conﬁgurable basée sur la modélisation de patterns de détection simultanée d’anomalies multiples. CoRP applique un ensemble de patterns, déﬁni par l’utilisateur, aﬁn d’annoter (labels) les points remarquables dans une série temporelle uni-variée, puis détecte les anomalies par composition de labels. En comparant avec des algorithmes de la littérature, notre approche se montre plus robuste et plus précise pour détecter tous les types d’anomalies observées dans des déploiements réels. Nos expérimentations reposent sur des données du monde réel et des données de benchmark issues de la littérature

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Impact de l'évolution de nomenclature sur le versionnement des entrepôts de données

Author: Faiza Ghozzi Jedidi
Inès Zouari Turki
Rafik Bouaziz
Publication venue: 'Lavoisier'
Publication date
Field of study

Crossref

CoRP: A Pattern-based Anomaly Detection in Time-series

Author: Ben Kraiem Inès
Ghozzi Faiza
Péninou André
Teste Olivier
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 03/05/2019
Field of study

International audienceMonitoring and analyzing sensor networks is essential for exploring energy consumption in smart buildings or cities. However, the data generated by sensors are affected by various types of anomalies and this makes the analysis tasks more complex. Anomaly detection has been used to find anomalous observations from data. In this paper, we propose a Pattern-based method, for anomaly detection in sensor networks, entitled CoRP “Composition of Remarkable Point” to simultaneously detect different types of anomalies. Our method detects remarkable points in time series based on patterns. Then, it detects anomalies through pattern compositions. We compare our approach to the methods of literature and evaluate them through a series of experiments based on real data and data from a benchmark

Scientific Publications of the University of Toulouse II Le Mirail

Schema-independent Querying for Heterogeneous Collections in NoSQL Document Stores

Author: Ben Hamadou Hamdi
Ghozzi Faiza
Péninou André
Teste Olivier
Publication venue: 'Elsevier BV'
Publication date: 01/11/2019
Field of study

International audienceNoSQL document stores are well-tailored to efficiently load and manage massive collections of heterogeneous documents without any prior structural validation. However, this flexibility becomes a serious challenge when querying heterogeneous documents, and hence the user has to build complex queries or reformulate existing queries whenever new schemas are introduced in a collection. In this paper we propose a novel approach, based on formal foundations, for building schema-independent queries which are designed to query multi-structured documents. We present a query enrichment mechanism that consults a pre-constructed dictionary. This dictionary binds each possible path in the documents to all its corresponding absolute paths in all the documents. We automate the process of query reformulation via a set of rules that reformulate most document store operators, such as select, project, unnest, aggregate and lookup. We then produce queries across multi-structured documents which are compatible with the native query engine of the underlying document store. To evaluate our approach, we conducted experiments on synthetic datasets. Our results show that the induced overhead can be acceptable when compared to the efforts needed to restructure the data or the time required to execute several queries corresponding to the different schemas inside the collection

Scientific Publications of the University of Toulouse II Le Mirail

Interrogation de données structurellement hétérogènes dans les bases de données orientées documents

Author: Ben Hamadou Hamdi
Ghozzi Faiza
Péninou André
Teste Olivier
Publication venue: HAL CCSD
Publication date: 01/01/2018
Field of study

International audienceLes systèmes orientés documents permettent de stocker tout document, quel que soit leur schéma. Cette flexibilité génère une potentielle hétérogénéité des documents qui complexifie leur interrogation car une même entité peut être décrite selon des schémas différents. Cet article présente une approche d'interrogation transparente des systèmes orientés documents. Pour cela, nous proposons de générer un dictionnaire de façon automatique lors de l'insertion des documents, et qui associe à chaque attribut tous les chemins permettant d'y accéder. Ce dictionnaire permet de réécrire la requête utilisateur à partir de disjonctions de chemins afin de retrouver tous les documents quelles que soient leurs structures. Nos expérimentations montrent des coûts d'exécution de la requête réécrite largement acceptables comparés au coût d'une requête sur schémas homogènes

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte